Дали AI видеогенераторите мечтаят за Сан Педро? Мадона сред ранните възприематели на следващата вълна на AI
Когато Мадона пее шлагера от 80-те години на предишния век „ La Isla Bonita “ на концертното си турне, движещи се облици на въртящи се облаци с нюанси на залеза на гигантските екрани на арената зад нея.
За да получи този изтънчен тип, поп легендата прегърна към момента неразучен клон на генеративния изкуствен интелект – инструмента за текст към видео. Въведете няколко думи — да речем „ халюцинационен заоблачен залез “ или „ водопад в джунглата призори “ — и неотложно ще бъде направено видео.
Следвайки стъпките на AI chatbots и генераторите на неподвижни изображения, някои AI видео запалянковци споделят, че нововъзникващата технология може един ден да преобърне заниманието, позволявайки ви да изберете собствен личен филм с адаптивни сюжетни линии и краища. Но би трябвало да извървят дълъг път, преди да съумеят да създадат това, и доста етични клопки по пътя.
За първите осиновители като Мадона, която от дълго време разшири границите на изкуството, това беше по-скоро опит. Тя отстрани по-ранна версия на концертните визуализации на „ La Isla Bonita “, които използваха по-конвенционална компютърна графика, с цел да провокират тропическо въодушевление.
„ Опитахме CGI. Изглеждаше много скучно и кичозно и тя не го хареса “, сподели Саша Касиуха, шеф по наличието на празничното турне на Мадона, което продължава до края на април. „ И тогава взехме решение да опитаме AI. “
Създателят на ChatGPT OpenAI даде взор върху това по какъв начин може да наподобява комплицираната технология за текст към видео, когато компанията неотдавна сподели Sora, нов инструмент, който към момента не е обществено наличен. Екипът на Мадона тества друг артикул от основания в Ню Йорк стартъп Runway, който оказа помощ за пионер в технологията, като пусна първия си обществен модел за текст към видео предишния март. Компанията пусна по-усъвършенствана версия „ Gen-2 “ през юни.
Главният изпълнителен шеф на Runway Кристобал Валенсуела сподели, че макар че някои виждат тези принадлежности като „ магическо устройство, което въвеждате дума и някак си извиква тъкмо това, което сте имали в главата ви “, най-ефективните подходи са от изобретателни експерти, които търсят надграждане на остарелия от десетилетия програмен продукт за цифрово редактиране, който към този момент употребяват.
Той сподели, че Runway към момента не може да направи пълнометражен документален филм. Но може да помогне за попълване на фоново видео или b-roll — поддържащите фрагменти и подиуми, които оказват помощ да се опише историята.
„ Това ви икономисва може би една седмица работа “, сподели Валенсуела. „ Общата нишка на доста случаи на приложимост е, че хората я употребяват като метод за увеличение или ускорение на нещо, което биха могли да създадат преди. “
Целевите клиенти на Runway са „ огромни стрийминг компании, продуцентски компании, пост -продуцентски компании, компании за образни резултати, маркетингови екипи, рекламни компании. Много хора основават наличие, с цел да си изкарват прехраната “, сподели Валенсуела.
Предстоят рискове. Без ефикасни защитни ограничения видеогенераторите с изкуствен интелект биха могли да застрашат демокрациите с безапелационни „ дълбоки подправени “ видеоклипове на неща, които в никакъв случай не са се случили, или – както към този момент се случва с генераторите на изображения с изкуствен интелект – да наводнят интернет с подправени нецензурен подиуми, изобразяващи това, което наподобява като същински хора с разпознаваеми лица. Под напън от страна на регулаторите огромните софтуерни компании дадоха обещание да слагат водни знаци на генерираните от AI изходи, с цел да оказват помощ за идентифицирането на това, което е действително.
Също по този начин назряват разногласия за авторски права по отношение на сбирките от видео и изображения, на които системите AI се образоват (нито Runway, нито OpenAI разкриват своите източници на данни) и доколко те незаслужено възпроизвеждат творби, предпазени със запазена марка. И има опасения, че в един миг машините за правене на видео могат да заменят човешките работни места и артистичност.
Засега най-дългите видеоклипове, генерирани от AI, към момента се мерят в секунди и могат да включват внезапни придвижвания и издайнически проблеми, като изкривени ръце и пръсти. Поправянето на това е „ единствено въпрос на повече данни и повече образование “ и изчислителната мощ, от която зависи това образование, сподели Александър Вайбел, професор по компютърни науки в университета Карнеги Мелън, който изследва AI от 70-те години на предишния век.
„ Сега мога да кажа: „ Направете ми видеоклип на заек, облечен като Наполеон, който се разхожда из Ню Йорк “, сподели Вайбел. „ Той знае по какъв начин наподобява Ню Йорк, по какъв начин наподобява заек, по какъв начин наподобява Наполеон. “
Което е впечатляващо, сподели той, само че към момента е надалеч от изработването на завладяваща сюжетна линия.
Преди да пусне своя модел от първо потомство предходната година, претенциите на Runway за славата на AI бяха като съразработчик на генератора на изображения Stable Diffusion. Друга компания, основаната в Лондон Stability AI, от този момент пое създаването на Stable Diffusion.
Основната технология за „ дифузионен модел “ зад множеството водещи AI генератори на изображения и видео работи посредством картографиране на звук или случайни данни върху изображения, като дейно унищожава автентично изображение и по-късно предсказва по какъв начин би трябвало да наподобява новото. Той заимства концепция от физиката, която може да се употребява, с цел да опише да вземем за пример по какъв начин газът дифундира на открито.
„ Това, което моделите на дифузия вършат, е, че обръщат този развой “, сподели Филип Изола, доцент по компютърни науки в Масачузетския софтуерен институт. „ Те някак взимат случайността и я замразяват назад в размера. Това е методът за прекосяване от произволност към наличие. И по този начин можете да вършиме случайни видеоклипове. “
Генерирането на видео е по-сложно от неподвижни изображения, тъй като би трябвало да вземе поради времевата динамичност или по какъв начин детайлите във видеото се трансформират във времето и в последователности от фрагменти, сподели Даниела Ръс, различен професор от MIT, който управлява компютърните науки и изкуствените технологии Intelligence Laboratory.
Rus сподели, че нужните изчислителни запаси са „ доста по-високи, в сравнение с за генериране на неподвижни изображения “, тъй като „ включва обработка и генериране на голям брой фрагменти за всяка секунда от видеото. “
Това е без да стопира някои заможни софтуерни компании да се пробват да продължат да надминават една друга в демонстрирането на по-висококачествено генериране на AI видео с по-голяма дълготрайност. Изискването на писмени описания за основаване на изображение беше единствено началото. Наскоро Гугъл показва нов план, наименуван Genie, който може да бъде подканен да трансформира фотография или даже схема в „ безпределно многообразие “ от светове на видеоигри, които могат да се изследват.
В близко бъдеще видеоклиповете, генерирани от AI, евентуално ще се демонстрират в маркетингово и просветително наличие, предоставяйки по-евтина опция за основаване на истински фрагменти или приемане на стокови видеоклипове, сподели Адити Сингх, откривател в Кливландския държавен университет, който е проучил пазара на текст към видео.
Кога Мадона за първи път приказва с екипа си за AI, „ главното желание не беше „ О, вижте, това е видеоклип с AI “, сподели Касиуха, креативен шеф.
„ Тя ме попита: „ Можеш ли просто да използваш един от тези AI принадлежности, с цел да направиш картината по-отчетлива, с цел да се увериш, че наподобява настояща и наподобява с висока разграничителна дарба? “, сподели Касиуха. „ Тя обича, когато въвеждате нови технологии и нови типове образни детайли. “
Вече се вършат по-дълги филми, генерирани от AI. Runway е хазаин на годишен кино фестивал за изкуствен интелект, с цел да покаже такива творби. Но дали това е, което човешката аудитория ще избере да гледа, остава да забележим.
„ Все още имам вяра в хората “, сподели Вайбел, професор от CMU. „ Все още имам вяра, че в последна сметка това ще бъде симбиоза, при която някой AI предлага нещо, а човек го усъвършенства или управлява. Или хората ще го създадат и AI ще го поправи. “
————
Жуналистът от Associated Press Джоузеф Б. Фредерик способства за този отчет.